智能论文笔记

When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D Object and Scene Recognition

Ali Caglayan , Nevrez Imamoglu , Ahmet Burak Can , Ryosuke Nakamura

分类：计算机视觉

2020-04-26

识别对象和场景是两个具有挑战性的，但在图像理解中是必不可少的任务。特别是，使用RGB-D传感器在处理这些任务中，已成为更好的视觉理解的重要焦点领域。同时，深度神经网络，特别是卷积神经网络（CNNS），已经普遍存在，通过替换具有有效深度特征的手工制作的特征来应用于许多视觉任务。但是，它是一个公开问题如何有效地利用多层CNN模型的深度特征。在本文中，我们提出了一种新的两阶段框架，从多模态RGB-D图像中提取用于对象和场景识别任务的判别特征表示。在第一阶段，预先训练的CNN模型已被用作骨干，以在多个级别提取视觉特征。第二阶段将这些特征映射到高电平表示，具有有效的递归神经网络（RNNS）的完全随机结构。为了应对CNN激活的高维度，通过在RNNS中扩展随机性的想法来提出一种随机加权池方案。通过基于RGB和深度流分别的单个识别信徒（即SVM分数）来计算权重来执行多模态融合。这在最终的RGB-D分类性能中产生了一致的类标签估计。广泛的实验验证了RNN阶段的完全随机结构编码CNN激活以成功辨别鉴别的固体功能。比较实验结果对华盛顿RGB-D对象和Sun RGB-D场景数据集的比较实验结果表明，与物体和场景识别任务中的最先进的方法相比，该方法达到了优越的或映射性能。代码可在https://github.com/acaglayan/cnn_randrnn获得。

translated by 谷歌翻译

尽管有重要的表示能力，但馈通仅卷积神经网络（CNNS）可以忽略视觉任务中反馈连接的内在关系和潜在好处。在这项工作中，我们提出了一个反馈递归卷积框架（SALFBNET），可加于显着性检测。所提出的反馈模型可以通过从更高级别的特征块到低级层来缩小递归通路来学习丰富的上下文表示。此外，我们创建了一个大规模的伪显着数据集来缓解显着性检测的数据缺陷问题。我们首先使用所提出的反馈模型来从伪地面真理中学习显着分布。之后，我们微调现有眼固定数据集的反馈模型。此外，我们提出了一种新颖的选择性固定和非固定误差（SFNE）丢失，以使提出的反馈模型更好地学习可区分的基于眼固定的特征。广泛的实验结果表明，我们的SALFBNET具有较少参数的竞争结果对公共显着性检测基准进行了竞争力，这证明了提出的反馈模型和伪显着数据的有效性。源代码和伪显着数据集可以在https://github.com/gqding/salfbnet找到

translated by 谷歌翻译